home *** CD-ROM | disk | FTP | other *** search
/ Skunkware 5 / Skunkware 5.iso / src / Tools / freeWAIS-sf-1.1 / iubio-wais.news < prev    next >
Internet Message Format  |  1994-08-04  |  6KB

  1. From usenet.ucs.indiana.edu!sunflower.bio.indiana.edu!gilbertd Thu Nov  5 08:50:05 EST 1992
  2. Article: 1007 of comp.infosystems.gopher
  3. Newsgroups: comp.infosystems.gopher
  4. Path: usenet.ucs.indiana.edu!sunflower.bio.indiana.edu!gilbertd
  5. From: gilbertd@sunflower.bio.indiana.edu (Don Gilbert)
  6. Subject: Booleans, partial words and other WAIS mods in biology data searches
  7. Message-ID: <Bx8wv9.K3D@usenet.ucs.indiana.edu>
  8. Sender: news@usenet.ucs.indiana.edu (USENET News System)
  9. Nntp-Posting-Host: sunflower.bio.indiana.edu
  10. Organization: Biology, Indiana University - Bloomington
  11. Date: Thu, 5 Nov 1992 13:45:09 GMT
  12.  
  13.  
  14. I have just about finished adding boolean operators 'and' and 'not', 
  15. partial words, literal phrases, symbol matching and extended results
  16. retrieval to the WAIS release 8b5 source, and the Gopher server here
  17. is sporting these new features.    It will be next week until the source
  18. to these is publicly available, but you can try these out now via
  19. Gopher or WAIS to ftp.bio.indiana.edu.
  20.  
  21. To answer a general question of using WAIS (& Gopher) for large databank
  22. searching, biology gophers are doing that now with great success.
  23. We have indexed the databank of all known gene sequences, called Genbank,
  24. which is some 300 megabytes in size, and contains over 86000 separate
  25. entries.  The WAIS index of this is around 50 megabytes, but it is that
  26. low due to some modifications I made to the wais source (the default
  27. size when I first tried unmodified wais indexing was around 300 megabytes
  28. of index!).   Gopher/WAIS searching and retrieval from this large
  29. databank is very fast, possibly faster than that provided by some software
  30. specially written for searching this database.
  31.  
  32. The boolean 'and' and literal phrase modifications I'm using in WAIS were
  33. written by Tim Gauslin for use with USGS earth science databases in
  34. his WAIS service (see below).   His modifications for database search
  35. also include a special keyword field indexing, useful for databases with
  36. fixed fields, which I may also borrow.
  37.  
  38.  
  39. This is a summary of new biology data searching and retrieval offerings
  40. at the IUBio Archive (Internet host ftp.bio.indiana.edu).  These
  41. data are now available via a Wide Area Information Server, WAIS, as
  42. well as via Internet Gopher.
  43.  
  44. Here is the general WAIS source pointer for this archive.  
  45. (:source
  46.    :version  3
  47.    :ip-address "129.79.224.25"
  48.    :ip-name "ftp.bio.indiana.edu"
  49.    :tcp-port 210
  50.    :database-name "INFO"
  51.    :cost 0.00
  52.    :cost-unit :free
  53.    :maintainer "archive@bio.indiana.edu"
  54.    :description "
  55. This WAIS service includes several indexed Biology information sources,
  56. including Genbank nucleic acid gene sequence databank, Drosophila genetics
  57. BioSci/Bionet network news, and others.
  58. ")
  59.  
  60. This WAIS service sports several zippy modifications.  These include
  61. boolean operators 'and' and 'not', partial word matches,
  62. literal phrase matches, and extended number of results.
  63.  
  64. Boolean searches: The terms 'and' and 'not' are effective 
  65.     in modifying the query.   For example,
  66.     
  67.     Query: red and green not blue
  68.     Result: just those records with both the words 'red' and 'green',
  69.             excluding all records with the word 'blue'.
  70.             
  71. Partial words:  The asterisk (*) applied at the end of
  72.     a partial word will match all documents with words that 
  73.     start with the partial word.  For example,
  74.     
  75.     Query: hum*
  76.     Result: all records with 'hum', 'hummingbird', 'human',
  77.             'humbug', etc.
  78.             
  79. Literal phrases:  If quotes (') or double quotes (\") surrounding
  80.      a phrase, it will match that phrase exactly.  For example,
  81.      
  82.      Query: 'red rooster-39'
  83.      Result:  only those records with the the full string
  84.             'red rooster-39' will be matched.
  85.  
  86.      There are some practical limits on this.  The first part
  87.      of a literal must be a word that is otherwise indexed.
  88.      Thus your literal cannot start with a symbol or other
  89.      word delimiter.  Within quotes, the boolean operators
  90.      and the partial word key are not active.
  91.      
  92. These features can generally be mixed in a query, for example:
  93.      Query:  'Df(32)-[34]red' and hum* not Brown        
  94.  
  95.  
  96. Results limit (Gopher only):  The maximum number of results that
  97.      are returned for a query is by default up to 200 (may change).
  98.      But you may set a higher, or lower, maximum by appending
  99.      the greater than (>) symbol immediately followed by the
  100.      number you wish at the end of your query.  For example,
  101.  
  102.      Query:  brown and cow* or "red rooster" >300
  103.      Result:  up to 300 matches will be returned.
  104.  
  105.  
  106.  
  107. These modifications are based upon the publicly available WAIS
  108. source distribution from ftp.think.com, version 8-b5, dated
  109. 10 May 92, by Harry Morris, Brewster Kahle and Jonathan Goldman.  
  110.  
  111. The boolean 'and' and the literal search code was borrowed mostly intact 
  112. from the work done by Tim Gauslin on verson 8-b3 of wais source. 
  113. This source is available thru ftp as
  114.    ridgisd.er.usgs.gov:/software/wais/usgswais.tar
  115. See the USGS_Earth_Science_Data_Directory.src WAIS source for more
  116. details.
  117.  
  118. Other hacks, several bugs and general mangling of the wais source 
  119. was added by d.g. gilbert (gilbertd@bio.indiana.edu).  These modifications
  120. can (or in a bit) be picked up via ftp or gopher to ftp.bio.indiana.edu.
  121. Look in folder IUBio Software+Data/util/wais  for  iubio-wais-8b5.tar.Z
  122. (full source) or iubio-wais-8b5.tar.patches  for a difference or
  123. patch file.  [As of 5Nov85 I don't have these sources ready yet, try
  124. next week]
  125.  
  126. -- 
  127. Don Gilbert                                     gilbert@bio.indiana.edu
  128. biocomputing office, biology dept., indiana univ., bloomington, in 47405
  129.  
  130.  
  131.